HPC最適化インスタンスAmazon EC2 HPC6aをベンチマークしてみた
2022年1月にハイパフォーマンスコンピューティング向けに最適化された新しいインスタンスタイプ Amazon EC2 HPC6a が発表されました。
- Amazon EC2 Hpc6a Instances – Compute –Amazon Web Services
- 3rd Gen AMD EPYC™ processors power new Hpc6a instances
- ハイパフォーマンスコンピューティング向けに最適化された Amazon EC2 HPC6a インスタンス | Amazon Web Services ブログ
- HPC6a インスタンスを AWS ParallelCluster で動かしてハードウェアスペックを調べてみた | DevelopersIO
このインスタンスは
- 96 個の第 3 世代 AMD EPYC™ プロセッサ (ミラノ) の物理(≠スレッド)コア
- 384 GB RAM
- 最大 100 Gbps
という特徴を持ち、公式ブログによると、HPCワークロードに最適化されているだけでなく、「同等の x86 ベースのコンピューティング最適化インスタンスに比べて最大 65% 優れたコストパフォーマンス」を提供します。
HPC6aをHPC目的でなくコンピューティング最適化インスタンス(C系)の代替目的として評価するために、 Intelの第3世代 Intel Xeon Scalableを搭載した C6i 系インスタンスと簡易的なベンチマークをする機会があったので、結果を共有します。
ベンチマーク方法
今回は、Phoronix Test Suite を利用し、1インスタンスに閉じた CPU 系負荷をかけました。
テストケースには
- pts/openssl
- pts/compress-7zip
- pts/stockfish
を利用しました。
クラスターを組んで HPC ワークロードのベンチマークを実施したい場合は、以下を参照ください。
- Benchmarking AWS and HPC Services Next-generation Aerospace modelling and simulation
- Running CFD on AWS ParallelCluster 3 at Scale
インスタンスの比較
比較対象のインスタンスには、同じ第6世代 CPU 系の C6i ファミリーから
- 最大スペックの C6i.32xlarge
- 価格帯が近い C6i.16xlarge
を利用しました。
C6i.32xlarge は C6i.16xlarge の倍のスペックのため、理想と実測値のギャップを評価する上でも便利です。
インスタンスタイプ | hpc6a.48xlarge | c6i.32xlarge | c6i.16xlarge |
---|---|---|---|
Memory | 384 GiB | 256 GiB | 64 GiB |
Network Performance | 100 Gigabit | 50 Gigabit | 25 Gigabit |
$/Hour | 2.88 | 5.44 | 2.72 |
CPU(s) | 96 | 128 | 64 |
Thread(s) per core | 1 | 2 | 2 |
Core(s) per socke | 48 | 32 | 32 |
Socket(s) | 2 | 2 | 1 |
NUMA node(s) | 4 | 2 | 1 |
Model name | AMD EPYC 7R13 Processor | Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz | Intel(R) Xeon(R) Platinum 8375C CPU @ 2.90GHz |
CPU MHz | 2649.988 | 3423.102 | 2899.988 |
L1d cache | 4 MiB | 3 MiB | 1.5 MiB |
L1i cache | 4 MiB | 3 MiB | 1 MiB |
L2 cache | 64 MiB | 48 MiB | 40 MiB |
L3 cache | 32 MiB | 384 MiB | 54 MiB |
HPC6a インスタンスは、米国東部 (オハイオ) リージョンおよび GovCloud (米国西部) リージョンでのみ利用可能なため、今回はオハイオリージョンを利用しました。
オンデマンド利用費はオハイオのものです。
- HPC6a は C6i.32xlarge より47%安
- HPC6a は C6i.16xlarge より6%高
です。
OS
- Ubuntu 20.04
- 5.11.0-1022-aws (x86_64)
を利用しました。
ベンチマーク結果
OpenSSL
TLS/SSLライブラリ OpenSSL の openssl speed
を用いたベンチマークです。
アルゴリズムは SHA256 です。
実行コマンド : $ phoronix-test-suite benchmark openssl
pts/openssl-3.0.1 [Algorithm: SHA256] | hpc6a.48xlarge | c6i.32xlarge | c6i.16xlarge |
---|---|---|---|
byte/s | 89864762563 | 55511959380 | 27172375527 |
byte/s/$ | 31203042557 | 10204404298 | 9989843944 |
byte/s Ratio | 1.6188 | 1.00 | 0.4895 |
byte/s/$ Ratio | 3.0578 | 1.00 | 0.9790 |
Debiation(%) | 0.12 | 0.28 | 0.28 |
byte/s はベンチマークスコア、 byte/s/$ はそのスコアをオンデマンド価格で割ったものです。
Ratio 版は c6i.32xlarge を100%としたものです。
c6i.32xlarge の結果を100%とすると、hpc6a.48xlarge は62%もよい結果が出ています。 16xlarge が 32xlarge の半分なのは、想定どおりです。
byte/s/$ Ratio から、hpc6a 系は c6i 系の3倍コスパが優れているとみなせます。
OpenBenchmarking.org のベンチマーク共有結果
Stockfish
Stockfish はOSSで最強のCPU系コンピュータチェスソフトです。 コンピュータ将棋界隈で発明された efficiently updatable neural network (NNUE) が取り込まれていることでも知られています。
局面の探索速度(Node Per Second)を計測しています。
実行コマンド : $ phoronix-test-suite benchmark stockfish
pts/stockfish-1.3.0 | hpc6a.48xlarge | c6i.32xlarge | c6i.16xlarge |
---|---|---|---|
Nodes/Second | 156005353 | 163045277 | 91088814 |
Nodes/Second/$ | 54168525.35 | 29971558.27 | 33488534.56 |
Nodes/Second Ratio | 0.9568 | 1.00 | 0.5587 |
Nodes/Second/$ Ratio | 1.8073 | 1.00 | 1.1173 |
Debiation(%) | 2.32 | 3.46 | 2.32 |
c6i.32xlarge と hpc6a のスコアがほぼ同じため、オンデマンド価格差がそのままプライスパフォーマンスにつながっています。 c6i.16xlargeは c6i.32xlargeのほぼ半分です。
OpenBenchmarking.org のベンチマーク共有結果
compress-7zip
7zip の圧縮・伸長を用いたベンチマークです。
実行コマンド : $ phoronix-test-suite benchmark compress-7zip
圧縮
Compression Rating | hpc6a.48xlarge | c6i.32xlarge | c6i.16xlarge |
---|---|---|---|
MIPS | 284160 | 316532 | 224312 |
MIPS/$ | 98666.66667 | 58186.02941 | 82467.64706 |
MIPS Ratio | 0.8977 | 1.00 | 0.7087 |
MIPS/$ Ratio | 1.6957 | 1.00 | 1.4173 |
Debiation(%) | 4.39 | 2.95 | 0.32 |
圧縮は hpc6a がc6i.32xlargeに比べ少し悪く、c6i.16xlargeが良い結果を残しています。
伸長
Decompression Rating | hpc6a.48xlarge | c6i.32xlarge | c6i.16xlarge |
---|---|---|---|
MIPS | 318910 | 320599 | 178649 |
MIPS/$ | 110732.6389 | 58933.63971 | 65679.77941 |
MIPS Ratio | 0.9947 | 1.00 | 0.5572 |
MIPS/$ Ratio | 1.8789 | 1.00 | 1.1145 |
Debiation(%) | 2.3 | 1.22 | 0.14 |
伸長は hpc6a とc6i.32xlargeが同程度、c6i.16xlargeがその半分という結果です。
OpenBenchmarking.org のベンチマーク共有結果
スポットインスタンスを利用するとC6iのほうが割安
Amazon EC2には、オンデマンド料金と比べて、お客様に大幅な値引きで利用可能なスポットインスタンスが存在します。
C6i.32xlarge の場合、オンデマンドが $5.44 のところ、AZ によっては最低価格が $1.2808 と 約1/4(23.5%) の価格で利用可能です。
一方で、現時点で HPC6a のスポットインスタンスは提供されていません。 C6i.32xlargeのスポット価格は HPC6a のオンデマンド価格($2.88)の約半分(44.4%)です。
オンデマンド利用という前提では HPC6aは C6iに比べてプライスパフォーマンスが優れていますが、 スポットインスタンスも考慮に入る場合、C6i のほうが優れています。
スポットインスタンスの在庫枯渇や処理中断といった固有の問題を考慮の上、スポットインスタンスもご検討ください。
最後に
Phoronix Test Suiteを使い、EC2のHPC6aとC6iでCPU系のベンチマークを3ケース、4本実施しました。
- HPC6a は C6i.32xlarge より47%も安いにもかかわらず、対 C6i.32xlarge で 162%, 100%, 96%, 90%と 同等のパフォーマンス
- HPC6a は C6i.16xlarge より6%だけ高いにも関わらず、対 C6i.16xlarge で 330%, 176%, 171%, 127%と 圧倒的なパフォーマンス
ということから、HPC6aはセールズピッチ通り、コストパフォーマンスが非常に優れていることが確認できました。
なお、HPC6aは
- 米国東部 (オハイオ) リージョンおよび GovCloud (米国西部) リージョンでのみ利用可能なこと
- 48xlarge 以外のサイズは提供されていないこと
にご注意ください。
それでは。